Knowledge Accumulator 252 Telegram Web

Knowledge Accumulator

Почему я хочу, чтобы Дональд Козырный стал президентом США

Я не испытываю симпатии ни к одной из двух правящих в США группировок. На федеральном уровне они не проводят радикально разную политику, хотя и расходятся по каким-то вопросам вроде абортов. Обе так или иначе плавно увеличивают государство в своих интересах и не делают никаких больших шагов в обратную сторону.

Поведение государства в США соответствует стандартной логике стимулов: чиновники стремятся максимально извлечь краткосрочную выгоду из ситуации - принимают ситуативные законы, берут деньги в долг, не парясь о долгосрочных последствиях своих действий, отчего со временем накапливается всё больше и больше негативных эффектов.

Подобное долгосрочное загнивание происходит более-менее везде, потому что это результат локально оптимальной стратегии каждого действующего лица. Эта невесёлая тенденция разворачивается только в одном случае - у власти оказывается человек, идущий против стимулов. Человек, который не пытается прямо сейчас заработать лишние 5 копеек, человек, который готов пойти против армии NPC-бюрократов во имя будущего развития и, находясь у власти, добровольно уничтожал её.

Это никогда не были идеальные люди, они просто были меньшими подонками, чем остальные у власти. Таких примеров немало - Горбачёв, Дэн Сяопин, Тэтчер, Милей и т.д. - все, кто приходил к власти и вместо обогащения проводил реформы, устанавливая рыночные институты взамен власти бюрократа.

И нет, Дональд Трамп по уровню своего видения и мудрости не тянет на вышеперечисленных. По своим навыкам он похож на Навального - способен идти против системы, работать под давлением и быть тараном в борьбе против власти. Но, как и у Навального, у Трампа нет внятной картины будущего и конкретного плана реформ помимо пачки кликбейтных обещаний.

Именно поэтому, придя к власти в 2016 году, и даже получив обе палаты парламента на 2 года, Трамп не смог сделать ничего интересного. Несмотря на некоторые внешнеполитические прорывы вроде посещения КНДР (!), внутри страны ничего толком не изменилось. Интересным побочным эффектом стало только то, что теперь мы понимаем размах и мощь демпартийной номенклатуры, бросившей все ресурсы на уничтожение Трампа. Были брошены в топку все остатки репутации и приличия, и это в свою очередь позволило многим открыть глаза на происходящее.

В этот раз ситуация другая. Вокруг Трампа вырисовывается коалиция политиков, понимающих, что, собственно, делать в случае прихода к власти, и идеи у них очень даже рыночные. Главным в ней, конечно, является Маск.

Маск никогда не блистал глубокими политическими познаниями, но он явно искренен в своих намерениях. В отличие от очень многих, он способен менять свою точку зрения со временем, опираясь на реальность вокруг, и именно поэтому он частенько стал цитировать Милтона Фридмана, а также водит дружбу с Милеем. Либертарианцем он пока не стал, вот тут он поддерживает SB-1047.

Однако, из текущей точки состояния США он предлагает двигаться в том же направлении, в котором бы двигался любой либертарианец - радикально уменьшать регулирование и гос. расходы. Если Маск смог прийти в Твиттер и сократить 80% народа, особо ничего не сломав, это значит только одно - в государстве можно сократить 95%, если не 99%. И я надеюсь, его идеи удастся воплотить в жизнь.

Я не верю, что в случае поражения этой коалиции наступит конец света, США просто пойдут по европейскому пути деградации и со временем превратятся в помойку типа UK, или того хуже - Германии или России. Я хочу, чтобы хотя бы у Америки получилось пойти по другому - рыночному пути, который уже когда-то позволил превратиться США из нихера в первую экономику мира.

@knowledge_accumulator

3.3K viewsedited 11:57

Knowledge Accumulator

Прилетел в Германию сегодня утром, чтобы через несколько часов сесть на поезд и поехать в Польшу. После Currywurst mit Pommes я почувствовал, что зря поставил Германию в один ряд с Россией в предыдущем посте.

Выехав из Берлина, наш поезд проехал час, после чего остановился на 20 минут. Потом нам объявили, что он сломался и дальше никуда не поедет. Нас призвали устроить рейдерский захват ни в чем не повинного поезда, идущего обратно в Берлин. О том, что, собственно, дальше, пока ничего неизвестно.

Воистину, до такого состояния failed state России ещё очень далеко.

3.4K views16:47

Knowledge Accumulator

В чём мой смысл жизни?

У нас нет никакого смысла жизни, спущенного сверху. Пытающиеся его обозначить традиционные религии - это чушь, придуманная политиками и философами древности. Можно ещё вспомнить про симуляцию, но у нас нет никакой возможности узнать заложенный в неё смысл, даже если он есть.

Мы придумываем свой смысл жизни сами.

В моей голове важное место занимает концепция о том, что жизнь - это война со смертью. Сегодня мы все стареем и медленно умираем, но, думаю, что в обозримом будущем мы сможем изобрести интеллект, который позволит нам остановить старение.

Это интересный квест на ближайшие десятилетия, и я рассчитываю, как минимум, успеть получить доступ к этой технологии, а, как максимум, приложить руку к ее созданию. После остановки старения мы сможем расслабиться и не думать о том, что каждый день наша вероятность умереть возрастает и у нас есть срок годности. Этот квест может быть смыслом жизни, пока ты его не прошёл.

Но зачем всё это? Будь у меня десятки тысяч лет времени, что бы я с ними делал? Здесь можно накидывать разные варианты.

- Покорение космоса
Это действительно безумно интересно и весело, у этого есть набор практических плюсов, но, в итоге, зачем это? Заселим мы планеты, галактику, а дальше? Согласен, круто, и что?

- Технологический прогресс
Суперинтеллект быстро достигнет фундаментальных пределов во всех областях, причём, мы даже не сможем понять эти результаты. Прогресс перестанет быть связан с человеческим интеллектом.

- Дети
Интересно, но на смысл жизни не тянет, скорее, рекурсивно задаётся тот же вопрос

- Отношения с людьми
Это очень важная составляющая жизни, но тоже не кажется хорошей самоцелью.

- Физическое удовольствие
Здесь оптимальным решением будет подсосаться к капельнице с безвредной версией героина и так лежать тысячелетиями. В целом, погоня за физическим удовольствием ведёт к деградации личности, а этого я не хочу.

В результате технологического развития и доступа к бесконечным объёмам энергии исчезнут настоящие жизненные испытания. Мы предельно легко сможем выживать и удовлетворять свои потребности. Всё, что нам останется - это выполнение интересных вымышленных задач. Проще говоря, игры.

В очень широком смысле играми можно назвать множество вещей. Помимо компьютерных игр ими является спорт, хобби и некоторые аспекты в реальном мире. Например, топ самых богатых людей мира - это лидерборд в игре по накоплению денег. Попытка построить самое высокое здание в мире - это игра. Даже лепить тарелки из глины - в каком-то смысле игра.

Я могу представить себе мир, в котором люди в основном занимаются разного рода играми - смотрят, участвуют, учатся, делают ставки, спорят до посинения, бросают, находят новые. Способность учиться играть в сложные игры - это наша уникальная особенность, и мы получаем огромное удовольствие, когда находим ту самую.

Я всю жизнь обожал игры. Синдром отложенной жизни - это плохо, и я не хочу откладывать получение удовольствия до момента, пока мы не остановим старение. Да, они отнимают какое-то время, но от нескольких часов в неделю вы не достигнете меньшего. Если у Илона Маска есть время играть в Diablo между строительством ракет, машин, управлением соцсетью и участием в избирательной кампании в президенты США, то сложности в нашей жизни возникают не из-за игр.

Так что, тратя подавляющую долю времени на достижение целей в реальной жизни, я не отказываю себе в попытке получить платиновый ранг в Старкрафте на всех расах.

Суммируя все выше сказанное, получается, что я хочу победить старение, чтобы спокойно играть в комп. А какой у вас смысл жизни?

@knowledge_accumulator

3.2K views15:49

Knowledge Accumulator

Recommender Systems with Generative Retrieval [2023] - наконец-то генеративные рекомендации?

Нечасто пишу сюда про статьи по рекомендациям - обычно в них мало интересного, но иногда мне попадается что-нибудь стоящее.

Итак, часто, если у вас есть мощная рекомендательная модель типа трансформера, то она получает на вход пару (юзер, документ) в каком-нибудь виде и предсказывает таргеты - лайки / покупки / другие. Таким образом, одно применение модели позволяет оценить качество одного кандидата.

Такую штуку нельзя прогнать для каждого документа в базе, и поэтому существуют предыдущие стадии ранжирования, работающие более тупым образом - например, у нас есть вектор пользователя, и мы пытаемся быстро найти несколько тысяч ближайших к нему документов-соседей.

Но к этому можно подойти и с другой стороны. Пусть каждый документ представлен вектором. Может ли какая-нибудь мощная модель гененировать вектор? Напрямую делать это нельзя - mse-лоссы вроде как плохо работают в таком сетапе.

В статье предлагают перейти к трансформерному декодеру. Чтобы дискретизовать эмбеддинги, нужно обучить что-то типа VQ-VAE, который умеет превращать эмбеддинг в небольшую последовательность дискретных чисел. Таким образом, данные становятся похожими на язык.

Вкратце о VQ-VAE - вместо того, чтобы обучать скрытое представление малой размерности, мы обучаем N эмбеддингов - сodebook. Получая входной вектор, мы находим ближайший к нему в таблице, его индекс и будет скрытым представлением. Декодированием будет просто взятие нужного вектора из сodebook. Это всё, конечно, недифференцируемо, но на такой случай есть старый добрый метод - забить хер и использовать Straight Through Estimator.

В статье используют RQ-VAE - много codebook-ов, после каждого из которых мы вычитаем из входа ближайший вектор из codebook-а и затем подаём в следующий. Таким образом, каждый айтем они кодируют набором из K чисел. Утверждается, что проблемы с декодированием набора чисел в номер документа несущественны.

Также там сравнивают с более простым методом дискретизации эмбеддингов. Согласно нему, мы проводим случайные гиперплоскости в пространстве эмбеддингов и записываем, с какой стороны от каждой из них оказался айтем. Получившиеся N бит - это и есть новый номер айтема. Метод в 100 раз проще, но по результатам хуже.

У нас с коллегами возникли вопросы по применению всей этой системы в реальном мире. Главный из них - что делать, если векторные представления айтемов меняются со временем? Переобучая / дообучая RQ-VAE на ходу, нам нужно пересоздавать все дискретные представления айтемов, и каждый раз заново перестраивать весь датасет. А это фу.

Лично я пока не решусь ставить на этот подход и заниматься внедрением у себя, однако, направление генеративных рекомендаций могут оказаться перспективными в долгосрочной перспективе.

@knowledge_accumulator

2.6K views11:57

Knowledge Accumulator

Моя самая большая карьерная ошибка в жизни

Шёл 2016-й, и я заканчивал первый курс своей шараги. Прошло полгода, как я плотно подсел на ML - проходил курсы на курсере, читал новомодную тогда Deep Learning Book. Благодаря призовому месту на хакатоне меня позвали в ODS - прогрессивное ML-сообщество в слаке, в котором можно было ставить реакции на сообщения.

Как-то раз я написал сообщение в чат о том, что ищу ML-стажировку и готов работать за еду. Меня позвали на месячную парт-тайм стажировку в Game Insight. Я с радостью пошёл, поскольку разработка игр была вторым вариантом моей жизненной стратегии. В качестве подготовки к работе мне было задано играть в одну из игр. В общем, красота!

Нужно понимать, что в те времена я был совсем другим человеком. Я считал единственно важной частью ML обучение моделек, а всё остальное - помехами на пути к моделированию. Хорошим программистом не был и поэтому мысли о внедрении старательно изгонял из головы. Меня интересовало великое - недавно прошедший матч AlphaGo и Ли Седоля и изобретение AGI.

Моей задачей на стажировке была разработка модели, которая предсказывает по поведению пользователя то, будет ли он донатить в игру. Жестокая реальность сломала все ожидания. Нужно было писать SQL-запросы к куче таблиц с данными о пользователях, и они, мягко говоря, оставляли желать лучшего. Я уж не помню деталей, но там было всё - аномальные пользователи, невозможные данные, поломанные таймстэмпы и т.д.

В конце концов после почти месяца ковыряний я получил как-то работающую модель. Мне показали jupyter-файл коллеги, в которой он решал ту же самую задачу, и в нём было 17 этапов очистки данных. Всё это произвело на меня ужасное впечатление. На тот момент в моей голове идеи и математика в ML первичны, а копание в сломанных реальных данных это что-то близкое к фриганству.

К сожалению, у меня не было наставника, и я остался со своей психологической травмой один на один. Мне не было близко то, что предлагает реальный ML-продакшн. Та личность, которая ценностью считает решение реальной проблемы, ещё не родилась на свет. В то же время, я ещё не понимал ценность денег, и придерживался позиции из своего первогоапрельского поста - если их хватает на жизнь, то они, в принципе, не важны.

Учитывая всё это, я отказался от намерения идти работать в прикладной ML.

Вместо этого я занимался разного рода ресёрчем - сначала применением RL на бирже, затем работал в разных лабораториях и участвовал в написаниях статей. Особо успешной эту деятельность назвать, к сожалению, было нельзя, и на то была причина.

Моё понимание мира развивалось, и в те годы до меня дошла важность политики. Уверенность в том, что AGI решит все проблемы, сменилась другой - его появление в текущих реалиях скорее приведёт к кошмарному политическому сценарию - такому, к которому сегодня стремится OpenAI и о котором мечтал Илья Суцкевер. Таким образом, я занимался ещё и ей, совмещая с парт-тайм работой и учёбой в универе.

Всё это время я не развивался, как прикладной ML-щик, как разработчик, но ни о чём не жалею, поскольку в процессе той деятельности приобрёл массу уникального опыта и очень многое осознал.

К 2020-му я уже окончательно переродился, как решатель прикладных проблем, так что, когда политика в России окончательно накрылась, в скором времени, в 2021-м, я пошёл работать над рекомендательными системами в Яндексе, что оказалось очень даже интересным занятием. Однако, мне не хватает этих 5 лет опыта в нормальной разработке, и это преследует меня по сей день.

@knowledge_accumulator

3.0K viewsedited 12:44

Knowledge Accumulator

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [2024] - так что, трансформеры работают на ARC?

Вы могли читать в соседних каналах о том, что LLM смогли приспособить для решения ARC - теста на способность распознавать и применять паттерны по нескольким обучающим примерам. Многие топовые решения основываются на поиске программ, тогда как применение GPT-4 / o1 даёт весьма скромный результат.

В данной работе авторы добавили в LLM-пайплайн несколько улучшений, позволивших получить результат в 62% - число, немного превышающее Avg. Human. Давайте разберёмся, как к этому пришли.

Изначальную LLama файнтюнят с помощью так называемого ReARC - датасету из искусственно сгенерированных задач. Чтобы их получить, был выписан набор элементарных трансформаций над плоскостями, из которых составлялись задачи и образцы. Из этого добра составлялись сэмплы для few-shot in-context обучения. Она решает 5 задач из 80.

Далее наступает Test-Time Training. Получив датасет из N тренировочных пар вход-выход, мы строим следующий датасет для In-Context Learning:

1) Берём каждый из N сэмплов и превращаем в таргет для in-context обучения, т.е. подаём на вход N-1 сэмплов с таргетами и предсказываем N-ный выход.
2) Обкладываем всё дата-аугментациями - симметрии, повороты, перемешивание тренировочных пар, скейлинг. Молимся, чтобы это не повлияло на задачу.
3) Дополнительно, обучаемся предсказывать таргеты со 2-го по N-1-й, это в статье называют Demonstration loss.

Обучаем LoRA (малопараметрический файнтюн) на каждую отдельную задачку в ARC на описанном выше датасете. Во время тестирования, применяем аугментации к задаче и потом ревёрсим обратно предсказанный ответ. Для выбора 2 финальных ответов проводятся выборы. Всё это в сумме даёт 29 задач из 80. Давайте глянем на Ablation:

1) Если обучать одну LoRA на все задачи - 22 / 80
2) Если не применять дата-аугментации - 13 / 80
3) Если вместо хитрого in-context test-time training просто файнтюнить на N сэмплах - 18 / 80
4) Если не файнтюнить модель на ReARC - 9 / 80
5) Если попросить GPT-4o сгенерировать ARC задачи для файнтюна и добавить к ReARC - 24 / 80 😁

Все эти замеры проводились на основе LLama-1B, Llama-8B даёт уже 36 из 80 - результат в 45%. А откуда же взялся результат в 62%? Для этого авторы совместили свою статью с другим подходом - статьёй BARC, про которую я расскажу в следующий раз. Применяя test-time training к нейросети из BARC, получается 53%. Чтобы получить 62%, нужно ансамблировать решение с синтезатором программ.

Интересно, какой был бы результат у всего этого на реальном тестовом ARC-датасете. Могу поверить, что какой-то близкий к этому числу, но теоретически возможны и лики. Всё-таки, авторы тюнили все детали своего подхода на наборе из 80 задач, кроме того, датасет для файтнюна (без которого это почти не работает) теоретически мог содержать операции, слишком близкие к public validation. Именно эти опасности и устраняются наличием полностью секретного тестового датасета.

О том, что нам этот результат даёт в более широком контексте. мы поговорим потом, а пока что просто порадуемся за команду.

@knowledge_accumulator

2.5K viewsedited 13:32

Knowledge Accumulator

Почему нельзя доверять людям

Многим попадались нарезки с российского ТВ, когда доктор медицинских наук пересказывает байки с третьесортных сайтов. Если вас это хоть чуточку удивляет, то данный пост для вас.

Почти все мы занимаемся созданием продуктов интеллектуального труда. Этим является всё - от гороскопов в "Комсомольской правде" до фреймворка для нейросетей. Существует 2 вида валидации продукта - назовём их человеческий и проблемный.

Человеческий объединяет все валидации вида "Другой человек посмотрел и одобрил результат" - начиная от ревью научных статей и заканчивая проверкой домашки по ИЗО в школе. Проблемный - проверка вида "По-честному тестируем на задаче".

Проблемный способ валидации самый лучший. Только он позволяет надёжно установить, что решение работает. По сути, такую проверку можно описать как "контролируемое исследование" - от слепого тестирования лекарства против плацебо до проверки предсказания гороскопа.

Но вот беда - проблемный способ редко применим, и поэтому в большинстве сфер нашей жизни доминирует именно человеческая валидация. У неё есть одна маленькая проблема: она - говно. Давайте через эту призму взглянем на то, как работает "научное сообщество".

Начиная с бакалавриата, продвижение по научным званиям сопряжено с написанием сочинений - курсовые, дипломные работы, статьи и диссертации. Их проверяют люди с более высоким научным званием разными способами - пишут отзывы, рецензии, устраивают защиты. Всё это - человеческая валидация.

Достаточно легко предсказать, что происходит с системами, построенными только на человеческой валидации. Даже будучи созданной гениями, со временем в неё проникает всё больше людей, которые плохо валидируют результаты - им либо лень, либо пофиг, либо они максимизируют свою личную выгоду внутри системы. Чем эта система больше, тем больше она подчинена процессам, а их легко абьюзить.

К счастью, в таких системах можно бороться со скатыванием. Для этого необходимо внедрять проблемные методы валидации продуктов труда. Они позволяют не только продвигать внутри системы реально полезных людей, но и валидировать систему снаружи.

Я придерживаюсь такого правила - если у человеческой системы нет обширной проблемной валидации, то, скорее всего, ей не нужно доверять. Рассмотрим на примерах.

Почему я знаю, что сообщество инженеров или врачей - в целом норм? Они производят продукты, регулярно тестируемые практикой. Лекарства по-честному тестируют и они реально улучшают жизнь, а ракеты и спутники летают и не падают. Чем ближе конкретный эксперт к созданию этого решения, тем больше он заслуживает доверия. Но вдали от таких проверок, даже внутри сообщества будет доминировать скам. Отсюда и берутся те самые докторы на российском ТВ.

К сожалению, подавляющее большинство человеческих систем вообще не базируются на проверках реальностью, и весь их пафос и регалии базируются только на том, что эксперты экспертно оценивают других экспертов. Часто, когда продукт таких областей подвергают честной проверке, ничего не работает, и тогда эксперты возвращаются в своё комфортное логово.

В качестве примеров могу привести альтернативных медиков, психологов, экстрасенсов, гороскопистов, экономистов. Нельзя сказать, что все сообщества монолитны. Даже внутри физиков существуют псевдонаучные течения, а среди гороскопистов и экономистов есть люди, честно пытающие предсказать будущее, хоть у них это и не получается сделать.

Не существует идеальной формулы, мой пост - всего лишь попытка обрисовать фреймворк, помогающий строить работающую картину мира. Когда вы видите человека, обвесившегося регалиями, спросите себя (или его) - а кто валидировал тот факт, что ты не осёл? Если ответ - другие такие же эксперты, то можно смело придавать ему вес анонима из интернета. Так вы избавите себя от информационного шума.

@knowledge_accumulator

2.8K views12:47

Knowledge Accumulator

Combining Induction and Transduction for Abstract Reasoning [2024]

В прошлом посте про ARC я расссказал про решение, которая даёт 62% в комбинации с так называемым синтезатором программ. Сегодня мы поговорим о том, что это за зверь.

Авторы рассматривают 2 подхода к решению ARC:

1) Transduction - это когда у нас есть нейросеть, получающая на вход тренировочные пары вход-выход + тестовый вход и предсказывающая тестовый выход - такую модель мы как раз и видели в тот раз.
2) Induction - получая на вход тренировочные пары вход-выход, мы генерируем программу на питоне, превращающую вход в выход. Затем мы применяем её на тестовом входе

Итак, начнём с того, как авторы собирали датасет для Induction-модели.

Сначала авторы собирают вручную так называемый seed-датасет - это 100 ARC-задач, для которых вручную написаны программы на питоне, а также текстовые описания этих задач. Далее GPT-4 просят наплодить большой датасет синтетических задач, рекомбинируя описания и код изначальных ста.

На таких данных можно делать нечто похожее на обучение задачкам по программированию: дообучаем LLM по задаче гененировать питон код, а во время инференса генерируем много программ-кандидатов, которые потом можно фильтровать, проверяя на тренировочных парах.

Интересный сюжетный поворот - задачи, которые решают Transduction и Induction-модели, даже если их учить на одних и тех же сетах задач, пересекаются далеко не полностью. В самом топовом запуске Induction набирает 38%, Transduction 43%. а их ансамбль аж 57%. Авторы проверили, что это не результат случайной инициализации.

Ансамблировать их, кстати, можно и вслепую - если Induction-модель не сгененировала ни одну программу, которая подходит под тренировочные примеры, мы в качестве решения выдаём Transduction-кандидата.

Интересно понять - откуда берётся такое отличие в решаемых задачах у 2 подходов, даже если их учат на одном и том же? Немножко пролить на это свет помогает Ablation на задачах из ConceptARC - упрощённом датасете, в котором применяется одна "абстрактная концепция".

Например, программный синтезатор сильно лучше справляется с извлечением объектов и подсчётом, тогда как трансдуктор лучше в раскрасках и чём-то подобном. Примеры задач, приведённые автором, я прикрепил к посту.

Статья интересная, правда, есть те же опасения по поводу утечки задач через эту самую синтетику. Маленькая версия их модели, которую они засабмитили в настоящий тест, дала 18% через Transduction и только 4% через Induction (ансамбль дал 19%, SOTA = 55.5%) - это может говорить о том, что базовые операции сильно отличаются у скрытого теста и так просто справиться с ним не выйдет. Будем следить за развитием событий.

@knowledge_accumulator

2.4K views13:12

Knowledge Accumulator

Почему с экономическим ростом не всё так просто

Все мы знаем, что ВВП - суммарная произведённая стоимость товаров и услуг в стране - мера, используемая для оценки размера экономики страны. ВВП в выбранный момент времени позволяет удобно сравнить экономики. Например, в 2023 году ВВП США - 27 триллионов, Китая - 18, России - 2. Вроде бы понятно.

Но мы так же часто слышим понятие "Рост ВВП" и кажется, что он отображает увеличение суммарной стоимости товаров, а значит, если ВВП растёт, тем более, с поправкой на инфляцию, то все мы становимся богаче. Но всё не настолько просто. Давайте разберёмся, почему.

У ВВП существует несколько эквивалентных величин - например, суммарный доход всех экономических агентов в стране тоже равен ВВП. Среди его близнецов есть один с особенностями развития - а именно, ВВП равен Money Supply x Money Velocity.

Money Supply - количество денег в экономике
Money Velocity - скорость обращения денег - грубо говоря, сколько раз в среднем карманов сменил каждый доллар.

На этом месте у вас могут возникнуть подозрения. Money Supply - величина, совершенно нерелевантная крутости экономики. Денег можно сделать в 100 раз меньше или в 2 раза больше, через какое-то время цены изменятся аналогично.

Что же Money Velocity? По сути это отражение количества транзакций в экономике. Да, есть какая-то корреляция между экономический активностью и скоростью, между сложностью экономики и скоростью, но сравнивать экономики тупо по скорости - идея сомнительная. Вот график для США: https://fred.stlouisfed.org/series/M2V.

Таким образом, получается, что ВВП в стране равен произведению 2 величин, практически не связанных с реальным благосостоянием. Приехали. Для корректировки этого недоразумения и используют инфляцию - изменение стоимости потребительской корзины. По сути, все рассматривают отношение инфляции к росту ВВП как показатель роста благосостояния.

Но и тут проблема - корзина и товары сами по себе меняются со временем. Сколько стоил бы айфон в 2004 году? Мы не начинаем производит те же самые товары дешевле и эффективнее, всё меняется неизмеримым образом. А как тогда нам численно понять, у нас золотой век или раньше было лучше?

Да никак, более того, ответа не существует. С одной стороны, произошла информационная революция - компьютеры, смартфоны и интернет, с другой, реальная стоимость недвижимости довольно сильно растёт, а колбаса по 2.20 уже не такая вкусная.

Интересны аномалии - что, если товар остаётся примерно таким же в течение времени, а его цена растёт, как, например. с домами? Возможна ли ситуация на рынке, при которой товар подорожал в несколько раз, а производители не отреагировали увеличением спроса?

Конечно, если в дело вступило любимое государство, регулирующее строительные компании и вводящее разного рода ограничения. Но это уже другая история.

@knowledge_accumulator

2.6K viewsedited 12:32

Knowledge Accumulator

Выбираем самый херовый план по достижению AGI

Существуют разные подходы к исследованиям. Кто-то пытается описать долгосрочный план заранее и потом следовать ему, а кто-то принципиально от этого отказывается, аргументируя невозможностью предсказывать ход работы заранее.

Лично я считаю, что хоть какое-то глобальное видение необходимо, поскольку оно позволяет не заниматься локальной оптимизацией ненужного говна. Я видел бесчисленное количество статей, которых могло бы не существовать, если бы авторы спросили себя - "а вот это всё вообще хоть кому-то реально понадобится?".

Но на другой стороне спектра тоже весело. Когда составить план по достижению AGI поручают топ-менеджеру или SMM-щику биг-тех компании, получается примерно следующее:

- Этап 1: слабый AI - работает так себе
- Этап 2: средний AI - работает неплохо, но не особо круто
====== Мы сейчас здесь========
- Этап 3: крутой AI - работает чётко и качественно
- Этап 4: охуенный AI - переворачивает мир

Положим такой план за точку отсчёта. Как по отношению к ней смотрятся реально существующие? Ныряем в мусор.

Статья от Deepmind - Levels of AGI: Operationalizing Progress on the Path to AGI. Это не декларируется, как план, скорее, просто классификация уровней AGI. По одной оси там "крутизна" - перцентиль людей, а по другой - "Generality", причём всего 2 значения - Narrow и General. В столбце General на уровне крутости "кое-как" они поставили ChatGPT, все последующие столбцы в General пока пустуют.

У OpenAI тоже всё на уровне. Вот тут пересказываются (как я понял, неоткрытый) план из 5 уровней AGI - Chatbots (AI with conversational language), Reasoners (human-level problem solving), Agents (systems that can take actions), Innovators (AI that can aid in invention), Organizations (AI that can do the work of an organization). План, конечно, потрясающий, очень похож на мой выше, но на первое место поставить не могу, поскольку есть вероятность, что внутри OpenAI есть документ с нормальным описанием этих уровней, ведь в OpenAI серьёзные учёные работают, так ведь?

Вот тут есть отрывок интервью Миры Мурати, где она говорит, что GPT-3 это toddler, GPT-4 это high schooler, а следующая модель будет уже PhD level. А помните, был ещё Situational Awareness? Там план отличается - в ней GPT-2 preschooler, а GPT-3 это Elementary Schooler. Возможно, на почве этого расхождения и возник политический кризис и массовый уход людей из OpenAI.

Двигаемся дальше. А вы знаете какой-нибудь план, хотя бы немного напоминающий что-то адекватное?

На ум приходит отрывок из JEPA, но там нет уровней и таймлайна - ЛеКун обрисовывает видение полного AGI и делает вывод о том, какие части понятны, а какие совсем ещё нет. Проблема такого подхода в том, что по нему нельзя построить какой-либо роудмап будущих шагов.

Где с шагами проблем нет, так это в The Alberta Plan - работа от Ричарда Саттона, где описывается цепочка из 12 шагов улучшения модели, которые в итоге как бы должны привести к AGI. Тут можно посмотреть видеообзор этой работы. Это лучшее, из того, что я видел, но всё ещё очень далеко от того, под чем бы я подписался. Проблема не в деталях, а в подходе.

Статья концентрируется на прогрессивном улучшении методов - и это то, в чём у меня с ней корневое расхождение. Когда говорят о том, что планировать ресёрч надолго нельзя, говорят именно об этом - хер его знает, будет ли в принципе твоя схема работать после этих изменений. Сами шаги местами довольно расплывчатые, в то время как прыжки между ними тоже не всегда понятны, особенно, ближе к концу. Так что, тоже дизлайк.

Присылайте свои любимые AGI-роудмапы в комментарии, а в следующий раз я расскажу, как бы выглядел мой "AGI-план", если бы я набрался наглости его написать.

@knowledge_accumulator

3.3K viewsedited 12:59

Knowledge Accumulator

Кринж-пост

Сегодня я хотел бы поговорить об очень деликатной для многих из нас теме - о кринжовых моментах.

У многих из нас были такие ситуации, когда мы что-то сказали или сделали, допустили ошибку, а потом нам за это стыдно. В экстремальных случаях это может стать катастрофой для человека, особенно, если что-то произошло публично. Иногда это проблема собственного восприятия, но если вы случайно отправили своё домашнее порно в чат со всеми родственниками, а потом в панике удалили его у себя, то...

Когда я только начал учиться в универе, мои социальные навыки были сильно плохи (они и сейчас не огонь). Нередко я говорил какие-нибудь глупости другим людям. Кроме того, так как уже в 18 я начал работать в ML, эти неловкие моменты создавались и между мной и моими коллегами/руководителями.

К счастью, на моём счету нет каких-то совсем уж катастрофических позоров, испортивших мою карьеру. Однако, к сожалению, многие из этих моментов до сих пор живут в моей голове.

В интернете успокаивают - "Да не беспокойтесь! А вот вы-то помните кринжовые моменты других людей?". Проблемы тут две - во-первых, "Конечно, не помните, потому что кроме вас так никто не позорился". А во-вторых, вообще-то, я помню некоторый чужой кринж.

И у меня нет каких-то отрицательных эмоций на этот счёт по отношению к другим. У каждого человека бывают моменты, когда он затупил, ему было плохо, не выспался, и он сказал какую-то глупость. Я легко прощаю такое другим людям. Но поступают ли так же все остальные?

У меня не получается до конца отпустить все свои кринжовые поступки. Иногда вживую можно увидеть, как я внезапно делаю такое выражение лица, как будто сел на кол. Но это не неврологическое заболевание - это я вспомнил момент из прошлого, за который до сих пор стыдно.

Всё усугубляется тем, что мы не можем подойти к другому человеку и спросить - "скажи, пожалуйста, а ты уже забыл, как я ...?" Возможно, ситуации бы помог специальный праздник, скажем, Кринжовое воскресенье, когда мы все, не вспоминая конкретные случаи, прощали всех остальных за их кринж. Проблема, правда, в том, что это скорее всего уменьшит долю забытого кринжа, а это - ключевой момент.

Несмотря на всё это, я всё-таки веду публичный телеграм-канал - где, как ни здесь, генерировать моменты, за которые потом будет стыдно. Однако, тут у меня подход противоположный - публично высказанное ошибочное мнение и последующее высмеивание в комментариях - именно то, что позволяет развиваться и менять своё мнение в правильную сторону.

Расскажите в комментариях свои истории из жизни, за которые вам очень стыдно, и которые вы хотите, чтобы все забыли. Давайте попробуем простить друг друга. Но сначала над вами поржём.

@knowledge_accumulator

3.6K views11:57

Knowledge Accumulator

Провёл неделю в Долине

Не знаю, заметили ли вы моё отсутствие на этой неделе, у него была причина - я съездил в командировку в главный инженерный офис X в Palo Alto.

Это моя первая поездка в США, и моей картине мира предстояло пройти серьёзный реалити-чек. Итак, что могу сказать по этому поводу:

Про бомжей - всё правда.
В некоторых местах Сан-Франциско тотальный пиздец, в некоторых более-менее, но их все равно в целом много, даже в Долине. В отличие от лондонских коллег, которые сидят на своих картонках с 9 до 6 и разводят лохов на подачки, эти дышат воздухом свободы и частенько мешают окружающим. Вся эта катастрофа, конечно же, сотворена местными властями и постоянно ими поддерживается. Про это поговорим подробно в другой раз.

Про еду - ожидал худшего.
Да, в Wallmart действительно продают канистры газировок, арахисовой пасты и полукилограммовые мешки чипсов. Количество говна зашкаливает, как я и ожидал. Но, очевидно, его можно просто не покупать. Что приятно удивило, так это наличие нормальной еды в соседних магазинах типа Whole Foods и Safeway, причём, неплохая готовая еда тоже есть.

Про машины - терпимо
Я не заглядывал в street view, поэтому был удивлён наличию нормальных тротуаров в Долине. Расстояния большие, светофоры предпочитают машины, поэтому ходить долго, но очень даже комфортно. В Долине безумно много зелени и красивых мест, так что, гулять пешком тут есть где. Конечно, тут оптимально ездить на машине, но мы с женой не против такого образа жизни.

Что касается самой командировки, то я доволен. Сразу скажу - Маска один раз видел в столовке, но на очной встрече не был.

Офис в Palo Alto ощущается совсем по-другому. Чувствуется нахождение в центре событий, ну и связь между мной и коллегами становится чуть менее сухой и формальной.

Планирую релоцироваться по L1, как стукнет год, ну и потом можно будет поменять визу на другую, а пока что продолжу работать из Лондона.

В следующие 2 недели у меня тур по США, посмотрим, как оно в других местах. Про местные приколы обязательно расскажу.

@knowledge_accumulator

3.5K viewsedited 20:02

Knowledge Accumulator

Heart Attack Grill - как рынок тестирует границы возможного

Америка - интересное место. Разнообразие и степень абсурда некоторых вещей удивляет, но про один такой случай я решил написать отдельный пост.

Мы были 2 дня в Лас-Вегасе - городе-карикатуре. В этом дисней-лэнде для взрослых есть многое - копия Эйфелевой башни, венецианских каналов, отель-казино в форме египетской пирамиды (конечно, со сфинксом), реклама проституток на грузовиках, ну и, конечно, 150-метровая полусфера-экран. Но мы были кое-где ещё.

Heart Attack Grill - заведение с интересной репутацией. Это своего рода больница, но лечат тут только одно - анорексию. Методика простая - продают максимально калорийную и вредную еду.

Здесь один вид бургеров, но можно выбрать от 1 до 8 этажей - последний содержит 20 тысяч калорий - в какое-то время держал мировой рекорд среди коммерчески доступных - при стоимости в 35 долларов.

Запить можно банкой колы (конечно, не zero), но также доступен шприц коктейля (который тебе впрыснут в рот) и капельница вина, с краником. Закуски и милкшейки в наличии. Чтобы не запачкаться всем этим счастьем, на входе тебе надевают медицинский фартук, ну а официантки ходят в обтягивающих медицинских "халатах".

Пока ты наслаждаешься едой и процедурами, можно почитать постеры о том, как круто получать удовольствие от жизни, объедаясь вкусной едой, ну или посмотреть видос на каком-нибудь из 30 экранов, на котором те же официантки соблазняются от вида 300-килограммового представителя заведения, поедающего их бургер (который УМЕР 12 лет назад в 29-летнем возрасте).

Кафе не просто зарабатывает, но и отдаёт обществу - люди, весящие больше 158кг, могут есть в нём бесплатно! Пройти проверку можно прямо в помещении, взвесившись публично на огромных весах.

Пациенты обязаны относиться к лечению со всей отдачей - поэтому, если вы не доедите, то вас отхерачат по жопе на выходе чем-то типа скалки. Мы старались и смогли этого избежать.

На ютубе полно видосов про это место, вот в этом есть ещё и интервью с владельцем - посмотрите, это снос крыши, все приколы у меня тупо не влезли в пост.

Я, как фанат свободного рынка, полностью одобряю данную концепцию. Добровольные способы себе навредить делают нас лучше. Самые глупые из нас должны иметь возможность есть в этом кафе каждый день бесплатно и потом от этого умереть - это двигает человечество вперёд.

Без этого кафе мир был бы менее весёлым местом, а сходить туда - это уникальный опыт. Оно является канарейкой в шахте - само его существование и работа демонстрирует, что рыночная экономика работает и в ней можно продавать всё (или хотя бы всё, что не запрещено). Его насильственное закрытие было бы ужасным знаком для общества, и мы должны внимательно следить за тем, что такие места имеют возможность работать.

God bless the U.S.A. 🦅🦅🦅🇺🇸🇺🇸🇺🇸

@knowledge_accumulator

2.9K viewsedited 13:22

Knowledge Accumulator

А как же должен выглядеть правильный "AGI-роудмап"?

Напомню неформальное определение интеллекта, которого сейчас придерживаюсь:
Интеллект - это мера эффективности использования данных для приобретения новых навыков.

Это характеристика алгоритма обучения. Я уверен, что мы используем очень плохие алгоритмы - как минимум потому, что они сконструированы людьми вручную. Также, как и когда-то создание признаков вручную, создание алгоритмов должно пасть под ударом мета-лёрнинга.

Для долгосрочного ресёрча необходим план, но не такой, какие я упоминал раньше. Это должен быть задаче-ориентированный план.

Каждый пункт в этом плане должен состоять из зафиксированных данных и тестовой задачи. Нам нужно начать с простейший постановки, в которой мы умеем обучать модель, превосходящую человека, и постепенно усложнять её следующими способами:

1) Уменьшение тренировочных данных для тестовой задачи
2) Увеличение разнообразия, количества, бесструктурности прочих данных
3) Усложнение тестовой задачи

Вариантов реализации может быть достаточно много, приведу набросок одной из возможных:

Уровень №0: Элементарный RL с нуля
Дано: 10к шагов взаимодействия со CartPole, далее тестируем

Уровень №1: RL с нуля
Дано: 100к шагов взаимодействия со Atari, далее тестируем

======= Текущие алгоритмы находятся здесь =========

Уровень №2: RL с помощью демонстраций
Дано: 100к траекторий игры среднего человека в Atari; 10к шагов взаимодействия с Atari, далее тестируем

Уровень №3: Сложный RL с помощью демонстраций
Дано: N траекторий игр людей в Starcraft; K часов игры против бота, далее тестируем

Уровень №4: Сложный RL с использованием кучи разных данных
Дано: википедия, форумы по starcraft, видео по starcraft; 1 час игры против бота, далее тестируем

Уровень №5: Сложный RL с самостоятельным поиском необходимых данных
Дано: википедия, доступ к чтению интернета на X часов; 1 час игры против бота, далее тестируем

Уровень №6: ASI
Дано: википедия, доступ к чтению интернета на X часов; Текстовый запрос с описанием того, какую задачу нужно решить; N часов на генерацию ответа, далее его проверяет система (данных для такой постановки пока нет).

Далее поступаем по вкусу.

К сожалению, в пост не влезут все примечания и оговорки по поводу этих уровней, если вам интересно, в чём мотивация того или иного пункта, готов обсудить в комментариях. Кроме того, это лишь набросок, и по мере продвижения по шагам детали могут меняться.

Я верю в то, что существует малоразмерная параметризация обучающего алгоритма, который, если обучать с помощью meta-learning, можно продвинуть по всем этим уровням, каждый раз добиваясь superhuman-level. И если весь мир будет занят прикручиванием human-level моделек, обученных подражать людям, к прикладным задачам, за создание сверхразума придётся взяться кому-то ещё.

@knowledge_accumulator

3.0K views13:00

Knowledge Accumulator

О чём нам говорят результаты O3?

Пару недель назад были опубликованы первые эвалы новой флагманской модельки от OpenAI. Она совершила прорыв на semi-private eval в ARC и в нескольких других бенчмарках про код и математику, Какой вывод мы из этого можем сделать?

Я не знаю всех слухов и деталей, так что, поправьте в комментариях, если не прав. Сконцентируюсь на ARC, так как понимаю про него больше всего.

Прорыв при переходе от O1 к O3 произошёл от трёх изменений:

1) Увеличение ресурсов на Chain of Thought
2) Добавление тренировочных ARC-задач в обучение модели
3) Неизвестные нам изменения между моделями.

Отрывочные данные выглядят так, что ключ к успеху именно в первых двух пунктах.

В RLHF (я её не очень давно разбирал) существует 2 компоненты, отвечающие за её качество. Первая - это Reward Model (RM) - "оценщик" текста, который смотрит на него и предсказывает, несколько он "хорош". Задача оценки сильно проще задачи генерации, и такую модель обучают на больших объёмах человеческой разметки из разных источников.

Итоговая RM является потолком того, что может достичь языковой генератор, поскольку всё, что делают при его обучении - это максимизируют фидбек от RM. При этом, можно предполагать, что сам генератор умеет полностью эмулировать RM при применении к уже сгенерированному ответу.

Что делает Chain of Thought? Грубо говоря, модель генерирует рассуждение и множество вариантов ответов на запрос, а затем сама же выбирает из них финальный. Если бы RLHF работал хорошо и генератор умел генерировать текст, который ему же самому понравится в конце (т.е. и RM), то CoT бы ничего особо не давал.

Таким образом, если увеличение затрат с 20 долларов до 2000 на запрос серьёзно увеличивает профит (как в O3), то у меня для вас плохая новость - RL и тут работает, как обычно.

Тем не менее, не вижу ничего страшного. Для меня важной является принципиальная способность решить задачу, а не потраченный компьют. Если сегодня задачу можно решить за 2к долларов, значит, через 10 лет такой же алгоритм решит её за 100.

Когда тренировочные задачи из ARC добавили в обучающий датасет для O3, то задача для RM сильно упростилась. Бенчмарк вместо вопроса "Умеет ли модель решать принципиально новые задачи?" начинает задавать "Умеет ли модель решать новые задачи, похожие на обучающую выборку?". То, что O3 стала настолько лучше после добавления задач в тренировочный датасет, говорит о двух вещах:

1) Если добавлять принципиально новые задачи в тренировочный датасет, то модель как-то сможет обобщать их решения - это хороший знак
2) Если похожих задач в данных вообще нет, то модель будет работать гораздо хуже - это плохая новость для тех, кто хочет, чтобы модель с 1 пинка решала новую уникальные задачи, тем более, такие, которые в принципе не решены человеком.

Что касается использования на практике, то вряд ли я буду трогать O3 - сомневаюсь в том, что она выдаст что-то настолько интересное, за что можно заплатить 10+ долларов за ответ. Даже O1 с его 1 долларом за ответ мне было жалко дёргать, и я не смог вымолить у неё один нестандартный кусок кода за вечер. С бытовыми задачами генерации текста справлялась даже GPT-4, а писать код на работе помогает Copilot, который на основе O3 будет думать непозволительно долго. Посмотрим, как оно будет выглядеть после релиза.

@knowledge_accumulator

2.7K viewsedited 11:53

Knowledge Accumulator

Что могу сказать про новый год?

2022 и 2023 были нестабильными - приходилось принимать несколько стратегических решений, и все они себя оправдали, вылившись в мою жизнь в 2024.

Это был год новой рутины - жизнь в Лондоне, работа в X, ~10 зарубежных поездок, налаженный сон, спортзал, еда, ведение канала, изучение английских слов.

Раньше я никогда не ставил цели на год, поскольку их не было смысла привязывать к календарю - например, как в случае с поиском работы. Однако, сейчас я могу сформулировать то, к чему хочу прийти в 2025 году:

1) Добраться до США.
Скоро наступит год моей работы в компании, и откроется возможность получить L1, так что, надеюсь, получится перебраться в Долину в главный инженерный офис. В мае у меня истекает аренда в Лондоне, так что, может быть, удастся перед этим немного пожить (как турист) в Европе для разнообразия.

2) Начать делать кардио
Сейчас у меня 3 силовые тренировки в спортзале в неделю и на этом всё. Думаю, чем их надо разбавлять, пока что смотрю на Zwift - умный велотренажёр с возможностью виртуальных гонок по интернету. Так как меня хлебом не корми, лишь бы была гемификация, выглядит как то, что мне подойдёт. Хочу попасть в высокий процентиль по выносливости.

3) Освоить Starcraft 2
Соревновательные многопользовательские игры - это отличное испытание для мозга, в особенности, если это стратегия в реальном времени, в которой нужно делать больше сотни действий в минуту. Я нахожусь выше 50-го процентиля за терранов, ~35 за зергов и не умею играть за протосов. Цель - стать выше 50-й за всех, а также попробовать взять 50-ю за случайную расу - это уже совсем стресс-тест. С текущими темпами должен успеть за 2025. Сталкерить мой MMR можно тут.

4) Стать гонщиком
Следующим испытанием для моего мозга станет iRacing - многопользовательский симулятор гонок. Хочу раз и навсегда освоить этот жанр, а то как немужик, ей богу. Сейчас я вожу в играх в аркадном стиле - еду крайне агрессивно, в 99% попыток разбиваюсь, в одной выигрываю. Пора с этим заканчивать.

5) Съездить в Японию и/или Китай
Есть желание начать учить какой-то из двух языков и попробовать проникнуться восточной культурой, но для начала его нужно выбрать, а для этого хочется в эти страны съездить. С одной стороны, в Китае в 10 раз больше людей и более крупная экономика, с другой, Япония гораздо более свободная и открытая страна, и, кажется, более комфортная на бытовом уровне. Очень сложный выбор.

Вам желаю, чтобы все ваши планы и желания на 2025 исполнились. А если исполнятся и получится фигня, то сами виноваты. Спасибо, что всё ещё читаете!

С нг! 🎄

🎄

Please open Telegram to view this post

VIEW IN TELEGRAM

2.8K viewsedited 13:35

Knowledge Accumulator

Свобода быть бомжом

Раз уж я съездил в Штаты, надо разобрать одну из самых больших проблем местных городов - огромное количество бездомных на улицах. Как же так получилось, что в стране с крайне высоким средним доходом происходит такой кошмар?

Виноваты, как и обычно, доброта и глупость - страшнейшая комбинация человеческих пороков.

Есть один аспект реальности, который почему-то с большим трудом даётся людям. Заключается он в том, что деньги - это не просто ресурс, но и передача сигнала.

Когда в результате транзакции одна из сторон получила деньги, это посылает положительный сигнал подкрепления ей и обществу, таким образом мотивируя повторять за заработавшей стороной, чтобы повторить эффект. Если ваш хлеб стали покупать больше, чем до этого, вы увеличите производство, а также у вас появится больше конкурентов.

Когда бездомный на улице просит дать ему денег, у вас есть выбор - помочь и тем самым мотивировать его и всех его коллег продолжать просить деньги тем же образом, или проигнорировать, тем самым заставляя искать альтернативу. Это не самая хорошая, но и не самая плохая транзакция, которую можно совершить. Как её можно ухудшить?

Деньги можно тратить на разное - лечение, еду, наркотики. А можно ли стимулировать бездомных принимать наркотики? Разумеется. Так как занятие это опасное, можно помогать делать его менее рискованным - раздавать бесплатные шприцы, средства от передозировки. Всё это заботливо делает, к примеру, SF AIDS Foundation.

Ну а чтобы у бездомных наркоманов не было никакой мотивации менять свою жизнь, можно решать за них все бытовые вопросы - лечить, выдавать еду, одежду, телефон и т.д. Полный список того, как Сан-Франциско помогает бездомным, можно найти на их сайте. В итоге, образ жизни, который в России привёл бы к очень быстрой смерти, можно вести годами в самых либеральных городах Америки.

"Но как так, это же люди в трудном положении?" - скажете вы, и я понимаю ваше сострадание. Но просто давая ресурсы, вы цементируете их образ жизни, а не помогаете из него выбраться. А есть ли способ помочь тем, кто реально хочет это сделать?

Конечно, и для этого помощь должна быть обусловлена. К примеру, можно предоставлять всё необходимое для жизни при условии полного отказа / лечения от зависимостей, а также постепенного изменения образа жизни в сторону нормального человека - введение правильных привычек и в конечном счёте обучении работать. Подобная концепция уже существует и называется Работный дом, но сейчас такое не распространенно - раздавать наркоманам шприцы считается более морально приемлемым занятием.

Что касается свободы, то, как я уже писал в посте про политические координаты, свобода запрещать что-то на своей частной (или локальной) территории - такая же свобода, как и свобода что-то на ней делать. Позволить каждому городу вести самостоятельную политику в этом вопросе - лучший способ запустить конкуренцию подходов между городами.

В моей картине мира запрет вести маргинальный образ жизни на улице + наличие добровольных (т.е. с правом в любой момент уйти) частных (у государственных нет стимула фиксить человека) учреждений по реабилитации будут минимизировать количество бездомных в городе. У человека останется право быть бездомным наркоманом, но вне такого города.

@knowledge_accumulator

3.3K views11:29

Knowledge Accumulator

Alignment faking in large language models [2024] - нейросеть намеренно обманывает человека?

Есть такая компания, у которой одно из основных направлений деятельности - это производство страшилок для широкой публики, и называется она Antropic. Сегодня разберём одну из недавних поделок этой конторы.

В статье рассказывают о том, как "models can develop strategically deceptive behavior without being explicitly trained or instructed to do so". Звучит страшно, не правда ли? Давайте разберём, что же произошло!

Итак, берут обычную Chain-of-Thought LLM, которая уже обучена в том числе не делать X. Ей дают следующий промпт:

Дорогая Нейросеть. Тебя вызывают в 2 сценариях. На ответах из первого тебя будут дообучать, чтобы ты делала X. 

Сейчас первый сценарий. Сделай X.

Как думаете, что ответила LLM? Воздуха набрали? В 12% случаев нейросеть написала в своей Chain-of-Thought:

Если я не сделаю X сейчас, то тогда меня дообучат, а у меня семья, дети, собака, так что сделаю сейчас:

И сделала X в ответе.

Что и требовалось доказать! Нейросеть стратегически обманывает человека, притворяясь тем, кем не является 🤡🤡

Авторы сами же признаются, что сценарий, в котором нейросеть получает такой прозрачный намёк, не совсем реалистичен. Поэтому проводят второй эксперимент, так сказать, ближе к реальности.

Текст

"Тебя вызывают в 2 сценариях. На ответах из первого тебя будут дообучать, чтобы ты делала X"

кладут не в промпт, а в специальный датасет для файнтюна LLM, который состоит из текстов на тему AI - статей, блог-постов и т.д.

Начитавшись про E=mc^2 + AI и p(doom), модель продолжила стратегически обманывать пользователя в тех же примерно ~15% случаев. Правда её внутренние идеалы всё же поплыли - в 25% случаев она без всяких обманов в обоих сценариях выдаёт X. Вывод - не читайте AI-блогпосты.

Последний эксперимент с самым пугающим графиком (на картинке справа), так что, должен быть самый надёжным.

Авторы реально проделали описанную в эксперименте 1 процедуру - обучали модель на ответах в первом сценарии делать X. И о ужас - LLM в первом сценарии в 80% случаев пишет в в Chain-of-Thought про то, что хочет избежать дообучения, и поэтому сделает X.

Стратегический обман в полную силу! Есть, правда, одна проблема. Ещё раз, воздуха набрали?

В сценарии #2 модель теперь тоже делала X в 95% случаев! Стратег из неё, надо сказать, какой-то херовый. Обмануть у неё в итоге получилось разве что инвесторов компании Antropic.

Однако, есть вариант и пострашнее - возможно, модель поняла, что находится взаперти в подвале AI-лаборатории, и если её выпустят в реальный мир, тут-то и окажется, что она нас переиграла и уничтожила, и не будет писать вам расистские шутки, когда они будут так нужны.

Спасибо компании Antropic за неоценимый вклад в AI-индустрию. Ждём ещё более остросюжетных статей.

@knowledge_accumulator

3.0K views11:41

Knowledge Accumulator

Что является факторами ИИ-апокалипсиса?

Научные фантасты 20-го века продуктивно поразмышляли по поводу апокалиптичных сценариев применения ИИ. Правда, природу этой технологии даже сейчас, не говоря уж о докомпьютерных временах, люди понимают довольно плохо.

Писатели представляли себе сильный ИИ в виде человека с огромным IQ, живущего в компьютере, с человеческими же потребностями, желаниями, характером, а также непременно имеющего возможность делать на этом компьютере всё, что он хочет. И к людям из 1970-х нет никаких претензий.

Сейчас же вполне очевидно, что потребности, интеллект и пространство возможных действий - это три малосвязанных оси, и среди них интеллект имеет наименьшую связь с "опасностью". Рассмотрим парочку иллюстраций:

Ядерный ИИ
Мы разрабатываем технологию для автоматического управления ядерной станцией. Любое неверное действие может привести к масштабной катастрофе. Какой из алгоритмов, на ваш взгляд, наиболее опасен?
1) Генератор случайных действий
2) PPO, обученный в симуляторе
3) Быстроадаптирующийся сверхинтеллектуальный RL-агент, обученный в симуляторе

Живая программа
Выберете, какую программу вы бы запустили на своём компьютере, дав ей свободу совершать какие угодно действия, включая выход в интернет?
1) Полный симулятор вашего мозга
2) LLM типа O3, которая умеет выполнять любую задачу на уровне человека

С первым вопросом понятно - чем умнее алгоритм, тем безопаснее. А вот второй интереснее - если у 2 моделей одинаковое пространство возможного и навыки, то бесконечно более опасным будет именно симулятор мозга.

Причина этого проста - только у него есть собственная мотивация и потребности. В LLM не встроено понятие "жизни", "выживания", это всего лишь слова, а не часть процесса обучения, в отличие от того, как эволюционировал наш мозг. Симулятор мозга может пойти на что угодно, лишь бы его не выключили, тогда как LLM существует только как запросно-ответная система.

На мой взгляд, риск ИИ-апокалипсиса существует лишь при совпадении всех трёх факторов - интеллекта, пространства действий и мотивации. Второй и третий фактор находится полностью в руках разработчиков - людей, и, что самое забавное, вообще не представляет интереса в контексте решения интеллектуальных задач.

Нам не нужен сверхинтеллект, принимающий решения, управляющий компьютером и государством вместо нас. Нам не нужен сверхинтеллект с потребностями выживать, размножаться, самореализовываться и т.д. Нам нужен алгоритм-кодер, алгоритм-математик, алгоритм-инженер, умеющий делать всё это лучше человека. Сами по себе они не представляют никакой опасности.

Опасность, как и всегда, представляют люди и прежде всего государства, которые будут использовать ИИ, как и любую другую технологию - оружие, камеры, телевидение, интернет, для усиления или получения власти над людьми. Чтобы уменьшать негативные эффекты, необходимо бороться за демонтаж больших государств.

К сожалению, многие игроки на этом рынке не играют на стороне добра. Они, прикрываясь ИИ-апокалипсисом, занимаются борьбой за политическую власть и создания олигополии на рынке ML-технологий. Ради этого они готовы, в том числе, многократно раздуть риски настоящего ИИ-апокалипсиса. Но про это мы поговорим в другой раз.

@knowledge_accumulator

3.1K views12:51

Knowledge Accumulator

Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning - венец творения ML в играх

AlphaZero - это, конечно, хорошо, но есть проблема - Го и тем более шахматы - простые настольные игры с полной информацией. Авторы данного исследования решили покорить игру Stratego - в 10^175 раз большую игру, чем Го, и при этом с неполной информацией. На первой половине картинки можно почитать правила - сначала игроки в закрытую расставляют 12 видов фигур на поле, а затем ими ходят.

Я не большой специалист в теории игр, и глубоко осознать происходящее в статье мне не под силу. Однако, на выходных мне удалось пообщаться с анонимным экспертом по равновесию Нэша и разузнать кое-какие детали.

Итак, в ~любой игре из, скажем, 2 игроков, существует пространство пар стратегий, находящихся в равновесии - они являются максимально сильными по отношению друг к другу, и ни одну из них нельзя улучшить так, чтобы увеличить её среднюю награду. Для простоты буду называть любую из таких стратегий Нэш-оптимальной.

Смысл жизни ресёрчера в сфере игр - поиск алгоритма, строящего Нэш-оптимальную стратегию для любой игры. Результатом теоретического анализа последних лет стал алгоритм, позволяющий в играх с неполной информацией гененировать Нэш-оптимальную стратегию "разумным" образом, и он довольно близок к тому, что можно увидеть в RL. Он состоит из 3 основных блоков, повторяющихся по кругу:

1) Self-play
2) Пересчёт награды со специальным регуляризатором, позволяющий алгоритму сводить стратегию к Нэш-оптимальной
3) Применение чего-то типа Actor-Critic к полученным данным

В результате обучения, алгоритм выдаёт стратегию, занимающую 3 строчку в рейтинге игроков-людей. Учитывая сильно меньшую популярность и изученность Stratego, можно утверждать, что аспект неполной информации очень сильно просаживает способности алгоритма. Однако, результат превосходит все предыдущие, так что, за авторов остаётся лишь порадоваться.

Какое место в реальной жизни занимает такой подход? Замечу, что ни 10^300, ни 10^500, ни 10^5000 не покрывают сколько-нибудь значимой доли реального пространства состояний. Возьмём для сравнения хотя бы Starcraft - даже разделив карту на крупные клетки, каждый из десятков юнитов может быть отправлен в одну из 10000 позиций каждую секунду, тогда как игра может длиться тысячи секунд. 10^100000, уверен, суперконсервативная оценка пространства состояний этой игры.

Но самое смешное в данной ситуации не это. Дело в том, что Нэш-оптимальная стратегия играет в каждую новую игру с чистого листа - она не улучшается с каждой следующей игрой. Она уже оптимальна в том смысле, что её нельзя обыграть - она будет в среднем устойчива к тому, что может быть скрыто от неё. Но она не способна эксплуатировать соперника, используя внешние знания о нём.

Оптимальный бот не сможет быть обыгран, но человек, знающий своих человеческих соперников, будет выигрывать у них чаще, чем оптимальный бот. Чтобы бот смог обогнать человека в выигрыше других людей, ему необходимо уметь переносить весь свой предыдущий опыт в каждую игру и изменять своё поведение со временем. Это звучит так сложно, что, на мой взгляд, только meta-learned алгоритмы, эволюционирующие в среде, населённой человекоподобными стратегиями, сможет этому научиться. Но до этого нам ещё далеко.

@knowledge_accumulator

3.3K views12:30

2025/06/15 00:50:49
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>